智能论文笔记

Provably Efficient Model-Free Algorithm for MDPs with Peak Constraints

Qinbo Bai , Vaneet Aggarwal , Ather Gattami

分类：机器学习 | (统计)机器学习

2020-03-11

在优化动态系统时，变量通常具有约束。这些问题可以建模为受约束的马尔可夫决策过程（CMDP）。本文考虑了受限制的马尔可夫决策过程（PCMDP），其中代理选择该策略以最大程度地提高有限视野中的总奖励，并在每个时期内满足约束。应用不受约束的问题并应用了基于Q的方法。我们定义了可能正确正确的PCMDP问题的概念（PAC）。事实证明，提出的算法可以实现$（\ epsilon，p）$ - PAC政策，当$ k \ geq \ omega（\ frac {i^2h^6sa \ ell} {\ ell} {\ epsilon^2}）$ $ s $和$ a $分别是州和行动的数量。 $ h $是每集时代的数量。 $ i $是约束函数的数量，$ \ ell = \ log（\ frac {sat} {p}）$。我们注意到，这是PCMDP的PAC分析的第一个结果，具有峰值约束，其中过渡动力学未知。我们证明了有关能量收集问题和单个机器调度问题的提议算法，该算法接近研究优化问题的理论上限。

translated by 谷歌翻译